JGLUE: 日本語言語理解ベンチマーク
本研究では、一般的な日本語理解能力を測ることを目的とし、翻訳を介することなく、日本語で一から言語理解ベンチマーク JGLUE を構築する。(概要)
JGLUE は、表 1 のとおり、文章分類、文ペア分類、 QA のタスクから構成する。(2)
MARC-ja (2.1)
JGLUE においては、 MARC の日本語部分を使用し、容易に判断可能な問題にするために、5 段階の評価のうち 3 を除く 4 つの評価について、1, 2 を “negative”、4, 5 を “positive” に変換して用いた 2 値分類タスクとする。 評価に用いる dev/test データについては高品質なものにするために、positive, negative 判定タスクをクラウドソーシングで実施する。
評価指標には精度 (acc) を用いる。
ラベル分布が付録Bに(表5)
positiveが多い
画像に対するキャプション
JSTS の評価指標には、STS-B と同様に Pearson および Spearman 相関係数を用いる。JNLI の評価指標 には、MultiNLI と同様に精度を用いる。
ラベル分布が付録Bに(表6, 7)
文書を読み、それに関する質問に対して答えるというタスク
Wikipedia を用いて一般ドメインの評価セットを構築する。
まず、Nayukiを用いて、高品質な記事 10,000 記事を選出し
Nayuki は Wikipedia 内のハイパーリンクに基づき、記事の品質を推定するもの(注3)
評価指標は SQuAD にならい、Exact match (EM) と F1を用いる。 注5より、F1は文字単位
JCommonSenseQA (2.4)
常識推論能力を評価するための 5 択 QA 問題
JGLUE を用いたモデル評価 (3)
(付録C)表4参照
ファインチューニング
文章分類タスクと文ペア分類タスク: [CLS]トークンに対する分類/回帰問題を解く。
JSQuAD: 各トークンに対して答えのスパンの開始/終了となるかどうかの分類問題を解く。
JCommonsenseQA: 質問と各選択肢を連結し、多肢選択式問題を解く。
dev セットで最適なハイパーパラメータを探索し、 最適なハイパーパラメータで test セットで性能を算出した。
表3
全般的には XLM-RoBERTaLARGE が最もよい。
一貫してサブワード単位の方が精度が高い。
JCommonsenseQA 以外についてはベストなモデルは人間のスコアと同等または超えている。
今後は GLGE のような生成系タスクや FLEX のような Few-shot タスクのデータセットなどを構築する 予定である。(4)